Temas
Compartilhe
Já é mais do que óbvio que 2023 foi o ano em que a inteligência artificial chegou à vida cotidiana. E ele ainda não acabou: há algumas semanas, a OpenAI anunciou novas capacidades no ChatGPT, com a possibilidade de o modelo interagir com imagens e voz, mostrando que mesmo os modelos de linguagem já existentes ainda possuem capacidades não exploradas.
Em uma notícia menos bombástica, pesquisadores da República Tcheca publicaram um ensaio clínico na área de neurocirurgia totalmente criado pelo ChatGPT, relatando que ele foi considerado crível por alguns especialistas. Um trabalho anterior já havia mostrado que resumos científicos criados pelo modelo são difíceis de diferenciar dos feitos por humanos. Os autores concluem que “a caixa de Pandora foi aberta” e que precisamos de métodos melhores para combater o mau uso da inteligência artificial na pesquisa.
À primeira vista, confesso que não fiquei impressionado. O artigo em questão parece claramente meia-boca: o tipo de texto anódino com métodos e resultados sucintos que você encontraria em algum periódico predatório sem confiar muito nele. Ademais, não é como se alguém precisasse do ChatGPT para publicar um artigo falso: a fraude deliberada sempre foi uma empreitada fácil em ciência. Há inúmeras demonstrações de que artigos propositalmente ruins , gerados por computador ou desprovidos de sentido acabam aceitos em alguma revista científica. O fato é por vezes usado para argumentar sobre a decadência de alguns campos de pesquisa , mas na prática é só mais uma evidência de que a revisão por pares pré-publicação é uma péssima forma de controle de qualidade .
Alguns pesquisadores, como o psicólogo holandês Diederik Stapel , fraudaram carreiras inteiras por décadas antes de serem pegos. E todos os anos, alguma acusação de manipulação de dados recai sobre pesquisadores renomados: as bolas da vez são os economistas comportamentais Dan Arielly e Francesca Gino , ambos os quais, ironicamente, estudavam aspectos psicológicos da desonestidade.
Em alguns locais, a fraude tem tomado escala industrial: os ditos paper mills , ou fábricas de papers – particularmente prevalentes em países como China e Rússia – vendem artigos completamente falsos, mas plausíveis, a autores que necessitam de publicações. Estimativas da prevalência de resultados suspeitos na literatura clínica falam em números tão altos como 20% ou 40% dos artigos publicados. Talvez seja um exagero, mas a verdade é que ninguém sabe, já que dados brutos não são rotineiramente compartilhados e nossos métodos para detectar resultados suspeitos ainda são limitados.
Por que a fraude parece ser comum? Provavelmente porque é fácil. O sistema de publicação científica está construído com base na confiança, e quando uma suspeita aparece, o ônus da prova costuma recair em demonstrar a falsidade de um resultado, e não sua autenticidade. Enquanto os artigos de Gino foram aceitos em revistas importantes sem grandes dúvidas sobre a veracidade dos dados, o relatório da investigação de Harvard para apurar a suspeita de fraude tem mais de 1.200 páginas , e ainda assim foi questionado judicialmente pela autora . O processo se estendeu aos pesquisadores responsáveis por apontar as inconsistências nos dados, que tiveram que recorrer a um crowdfunding para defender-se na Justiça.
Ponha o ChatGPT na jogada, e o caminho está aberto para os geradores de conteúdo falso que hoje operam nas redes sociais estenderem seus tentáculos para dentro da literatura científica e‘provarem’ o que lhes convir
A inversão de valores é óbvia – colocar um resultado na literatura científica é fácil como tirar doce de criança ; já retirá-lo é um processo longo e custoso que instituições e revistas não costumam estar muito a fim de fazer . O resultado é previsível e transforma a literatura científica numa terra de ninguém em que é difícil separar fatos de ficção.
Dado isso tudo, a entrada da inteligência artificial faria mesmo tanta diferença assim? Infelizmente, eu desconfio que sim.
O que ainda impede o colapso do sistema, afinal, talvez seja o fato de que sua fragilidade não é óbvia para quem olha de fora. Fabricar um artigo falso pode ser trivial para um pesquisador ou um paper mill, mas ainda parece fora do radar da indústria de fake news extra-acadêmica – talvez porque seja difícil soar pomposo e rebuscado como um cientista. Afora isso, é um processo que requer muitas horas de trabalho de um indivíduo especializado. Mas ponha o ChatGPT na jogada, e o caminho está aberto para os geradores de conteúdo falso que hoje operam nas redes sociais estenderem seus tentáculos para dentro da literatura científica e “provarem” o que lhes convir.
Como lidar com a ameaça? Editores de revistas vão falar em usar a própria inteligência artificial para detectar fraudes e conteúdo gerado por algoritmos (o que atualmente funciona bem mal ), em checagens editoriais mais rigorosas e provavelmente em aumentar os valores estratosféricos que já cobram . É provável, porém, que não exista solução para o problema se nos limitarmos a examinar o artigo científico – um relato indireto da pesquisa cujos autores, sejam eles humanos ou não, têm liberdade total para manipularem como bem entenderem.
Em quase qualquer atividade complexa no mundo extra-acadêmico, o controle de qualidade ao longo do processo é um preceito básico. A indústria automobilística iria à falência se deixasse para inspecionar se seus carros funcionam somente depois de tê-los totalmente montados. Para evitar isso, existem inúmeros passos de controle e vistoria em etapas intermediárias a nível de equipamento, peças e pessoas, dentro do conceito de “gestão de qualidade total” comumente atribuído ao americano W. Edwards Deming , que desembocaria na criação das certificações ISO 9000 e 9001 no final do século passado.
Outro preceito básico do controle de qualidade é a ideia de certificação sistemática. Você pode comprar o biscoito mais fuleiro do mercado, e mesmo que ele custe dois reais, tem como saber onde e quando ele foi feito, a data de validade e ter uma confiança razoável de que as instalações e processos de produção foram em algum momento verificadas por uma empresa ou entidade pública de forma minimamente padronizada.
Estamos tão acostumados com esse sistema que sequer lembramos que ele existe – mas nossa confiança nele está implícita no fato de entrarmos em aviões, carros e elevadores sem medo de que eles venham a se esfacelar. Não incidentalmente, ninguém teme que o ChatGPT cause uma epidemia de certificações falsas nesses campos: o golpe simplesmente não funciona num mundo em que os processos de controle de qualidade são supervisionados de forma sistemática.
Incrivelmente, porém, nem as checagens mais básicas existem para dados científicos. Um dos aspectos cômicos da fraude produzida em escala industrial é que ela frequentemente usa autores ou instituições que não existem , ou dados que claramente não poderiam ter sido coletados como descrito. Mas quando revisores analisam um artigo, a conexão com o processo que o produziu raramente é verificada – ou verificável –, ao contrário do que acontece com o biscoito adquirido pelo armazém da esquina.
É claro que não seria impossível fazê-lo. Identificadores digitais de pesquisadores existem, ainda que seu uso varie bastante entre instituições e áreas. Tentativas semelhantes existem para mapear reagentes de laboratório e outros recursos de pesquisa, e a existência de instituições não é difícil de comprovar. Com isso, cruzar registros para certificar que experimentos foram feitos onde e como os autores dizem que foram feitos parece um objetivo alcançável, caso esforços e investimentos sejam direcionados para isso, e essa iniciativa serviria como uma primeira linha de defesa contra as mentiras mais deslavadas – incluindo o dilúvio de conteúdo da inteligência artificial.
Isso, porém, seria apenas um primeiro passo na longa estrada até uma ciência mais confiável. Ainda há muito o que fazer em termos de estabelecer um controle de qualidade efetivo ao longo do processo de pesquisa – e não somente ao seu final, como costuma ocorrer hoje. Isso serviria não apenas para prevenir fraudes, mas para corrigir erros endêmicos que explicam boa parte dos problemas de reprodutibilidade na ciência . Tentativas de criar sistemas de qualidade na pesquisa acadêmica até existem , mas são esparsas e só parecem vingar de fato em projetos de grande escala, como em ensaios clínicos multicêntricos ou nas colaborações da física de partículas .
Por que isso não acontece na maior parte dos laboratórios? Provavelmente porque ninguém gosta de ser auditado: é tedioso, leva tempo, custa dinheiro e cerceia a liberdade acadêmica. Afora isso, cientistas são notoriamente relutantes em admitir o fracasso do sistema de revisão por pares – talvez por terem usado o conceito como sinônimo de confiabilidade na comunicação pública da ciência por décadas. E num mundo acadêmico em que são os próprios cientistas que costumam ditar as regras de instituições e agências de fomento, acaba sendo mais conveniente tapar o sol com a peneira, fingir que está tudo bem e usar tempo e dinheiro para seguir crescendo amalucadamente e fazendo descobertas originais e incríveis – mesmo que elas não sejam verdade. Dito isso, o sistema tem perdido credibilidade , e nada garante que a sociedade vá seguir concedendo a mesma liberdade à pesquisa que financia – e talvez tenha razão se não o fizer.
Num célebre artigo de 1994 intitulado “ O escândalo da má ciência médica ”, o epidemiologista britânico Doug Altman afirmou que “precisamos de menos ciência, ciência melhor e ciência feita pelas razões certas”. Quase 20 anos depois, o conselho nunca soou tão urgente – e não só por razões pessimistas. Afinal, os mesmos modelos de inteligência artificial que podem inundar o sistema científico com lixo também são capazes de sintetizar evidência e produzir resumos em tempo real da literatura científica sobre qualquer tema – se houver dados de qualidade para tanto.
Tentativas de usar modelos de linguagem para capturar o consenso científico sobre um assunto já existem . Mas sua confiabilidade ainda esbarra no fato de que filtrar o joio do trigo na literatura científica requer um grau de expertise tácita ainda fora do alcance de qualquer modelo. Se tivermos dados cuja qualidade já tenha sido verificada de forma efetiva, porém, uma revolução em nossa relação com o conhecimento está ao alcance da mão – e histórias de sucesso como o AlphaFold estão aí para mostrar isso.
Resta apenas quebrar a inércia da comunidade científica; essa, no entanto, costuma ser a tarefa mais difícil de todas. Ao contrário das últimas décadas, porém, dessa vez a pressa é maior. Se não conseguirmos mudar o controle de qualidade na academia num ritmo compatível com o avanço assustador da inteligência artificial, seguir tocando o barco significa deixar o dilúvio borrar de vez a distinção entre fato e ficção, por nossa própria incompetência em construir barragens.
Olavo Amaralé médico, escritor e professor da UFRJ. Foi neurocientista por duas décadas e hoje se dedica à promoção de uma ciência mais aberta e reprodutível. Coordena a Iniciativa Brasileira de Reprodutibilidade, uma replicação multicêntrica de experimentos da ciência biomédica brasileira, e o No-Budget Science, um coletivo para catalisar projetos dedicados a construir uma ciência melhor. Como escritor, é autor de Dicionário de Línguas Imaginárias e Correnteza e Escombros
Os artigos publicados pelos colunistas são de responsabilidade exclusiva de seus autores e não representam as ideias ou opiniões do Nexo.
Destaques
Navegue por temas